Binning de metagenomas

Objetivos

Adquirir habilidades para ensamblar genomas y metagenomas a partir de secuencias de lectura corta, evaluando la calidad del ensamblaje, mapeando lecturas a contigs, e identificando la influencia de la longitud del k-mero en el proceso, con un enfoque tanto a nivel de comunidad como de genomas individuales.

Descripción de los datos:

La práctica a realizar se basa parcialmente en el material provisto por Laura Dijkhuizen en este repositorio en el cual se referencian los datos de este artículo de acceso libre.

El sistema biológico del cual provienen los datos es la planta Azolla filiculoides, la cual se conoce por los microorganismos endófitos asociados. Se cuenta con secuencias producidas a partir de DNA extraído ya sea a partir de toda la planta (muestras marcadas con nombre P), o específicamente de las hojas (muestras marcadas con nombre E), en tres réplicas biológicas. El razonamiento detrás de estos dos tipos de muestreo es que se espera que los verdaderos endófitos sean más abundantes en las muestras de hojas que en las de planta completa. Estos archivos han sido pre-procesados con los pasos que ya son de su conocimiento: limpieza de secuencias por calidad, longitud y mapeo al hospedero.

Datos: Localización de los datos a trabajar: /hpcfs/home/cursos/biocom4102/datasets/Taller7/

Módulos a utilizar:

Megahit megahit/1.2.9 CONCOCT: concoct/1.1.0 CheckM: CheckM/1.1.3 Bowtie2: bowtie2/2.4.5 samtools: samtools/1.14

I. Ensamble de MAGs

Cree un ensamblaje para cada tipo de muestra con Megahit Archivos que incluyen en el nombre la letra “P”: toda la planta; archivos con la letra “L”: hojas). Tenga en cuenta que va a realizar un co-ensamblaje para cada tipo de muestra, por ende, debe especificar los comandos de la siguiente manera:

→ Entregue el comando que ejecutó (Nota: son dos en total, uno que integra las tres muestras de toda la planta y otro que integra las tres muestras de hoja).

II. Binning de metagenomas

Calcule la profundidad de secuenciación de cada contig o scaffold en el ensamblaje. Primero debe mapear cada librería al co-ensamblaje correspondiente con Bowtie2 y generar seis archivos .bam (uno para cada muestra con respecto al coensamblaje correspondiente, ej: P1_1.fastq y P1_2.fastq a co-ensamblaje_P.fasta). Utilizando samtools, aplique sorting e indexing a cada uno de estos seis archivos.

III. Análisis de profundidad de secuenciación

La profundidad de secuenciación para cada contig se utiliza para crear los bins. Siga los pasos enunciados en el tutorial de CONCOCT en este enlace. Nota: Recuerde que existen dos co-ensamblajes, un por cada tipo de muestra (P: toda la planta; L: hojas).

→ Para entregar:

  1. Para cada tipo de muestra: ¿cuántos contigs resultantes obtiene después de fragmentarlos en secuencias contiguas de máximo 10 Kb?

  2. ¿Para qué se realiza este procedimiento de fragmentación inicial? (pista: revise la publicación de la herramienta)

  3. Inspeccione alguno de los dos archivos coverage_table_P.csv o coverage_table_L.csv y describa lo que observa allí.

IV. Calidad de los bins

producidos: Idealmente, un bin debe representar el contenido genómico de una especie de la comunidad. Para comprobar que este sea el caso, podemos usar la herramienta CheckM utilizando (conda activate checkm). Con esta, se puede evaluar qué tan completo y/o contaminado está cada bin de acuerdo a la presencia y número de copias de un conjunto de marcadores de copia única (single-copy-marker-genes).

→ Para entregar:

  1. Para cada tipo de muestra: ¿Cuántos bins cumplen con las reglas de oro (presentadas en la introducción teórica) a partir de las métricas que indican qué tan completo y contaminado está cada uno?

  2. ¿Cómo contrasta esta información con lo descrito en el artículo del cuál provienen los datos? ¿A qué pueden deberse las discrepancias?

V. Revise las asignaciones taxonómicas y el potencial funcional descrito en el artículo del cual provienen los datos

→ Para entregar:

  1. ¿Qué grupos taxonómicos están sobrerepresentados en las muestras de hoja en comparación a las de toda la planta?

  2. ¿Qué tipo de potencial funcional está codificado en los bins provenientes de las muestras de hoja, en contraste con aquéllos provenientes de toda la planta?